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摘 要 心理 指标 识别 建 模 是 基于 海量 数据 结合 计算 机 机 器 学 习 算 法 识别 心理 特征 的 一 种 新 兴 方 式 。 由 于 传 
统 纸 笔 测量 方式 所 存在 的 诸多 限制 ， 本文 对 基于 社交 媒体 数据 的 心理 建 模 方 法 及 应 用 于 心理 测量 的 可 行 性 进 
行 综述 ,介绍 了 特征 及 提取 方法 、 常 用 机 器 学 习 算 法 以 及 应 用 场景 ， 并 对 心理 指标 识别 建 模 的 优势 和 不 足 进行 
了 总 结 与 展望 。 该 测量 方法 基于 社交 媒体 数据 ， 相 比 自我 报告 法 具有 了 时效 性 高 、 可 回溯 测量 、 生 态 效 度 好 等 
独特 优势 。 然 而 , 基于 社交 媒体 的 心理 指标 识别 建 模 方法 也 在 学 习 成 本 、 硬 件 成 本 等 方面 存在 局 限 性 。 未 来 
研究 人 员 需 要 进一步 探索 社会 媒体 信息 与 用 户 心理 变量 间 的 关联 机 制 ， 并 将 心理 指标 识别 模型 同 传统 心理 学 
研究 方法 结合 进行 更 多 的 探索 和 应 用 。 心 理 指标 识别 建 模 结合 心理 测量 基本 原理 和 计算 机 领域 机 器 学 习 的 技 
R, 将 为 心理 学 研究 打开 一 户 新 的 大 门 。 
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利用 社交 媒体 数据 建立 心理 指标 的 识别 模型 ， ” 供 丰 富 的 信息 ,为 研究 提供 宝贵 的 自我 视角 , 同 
是 通过 将 被 研究 者 心理 测试 的 自我 报告 结果 与 其 ”时 因 其 操作 简便 而 被 广泛 使 用 (Paulhus & Vazire, 
社交 媒体 数据 相 结 合 ,采用 机 器 学 习 的 方法 建立 。 ”2007)。 然而 自我 报告 法 可 能 存在 以 下 问题 (Dunning 
两 者 之 间 的 映射 ， 从 而 可 以 实现 通过 分 析 用 户 的 ”et al, 2005): 首先 , 由 于 人 记忆 的 固有 局 限 性 ， 
社交 媒体 行为 数据 直接 完成 对 其 心理 特征 高 准确 ” 当 研究 人 员 在 用 自我 报告 法 进行 回溯 性 研究 时 ， 
度 的 自动 识别 。 用 户 在 社交 网 络 上 的 在 线 行为 数 ”通常 很 难 做 到 与 过 去 时 间 点 精确 匹配 的 测量 ;其 
据 为 心理 指标 识别 建 模 ( 下 文 简称 “心理 建 模 ") 的 。 ”次 ， 自 我 报告 法 受制 于 测量 的 人 力 物力 ， 且 涉及 
开展 提供 了 便于 获取 的 海量 行为 数据 。 利 用 社交 ”到 问卷 的 填写 、 回 收 和 处 理 ， 整 个 流程 耗 时 长 ， 时 
媒体 数据 进行 心理 建 模 成 为 了 心理 测量 的 一 种 新 ”” 效 性 较 差 ,， 因而 难以 大 规模 地 进行 频率 较 高 的 测 
XTE. 量 ; 最 后 ， 自 我 报告 法 依赖 于 被 试 的 主动 配合 

目前 心理 测量 领域 应 用 最 为 广泛 的 方法 是 自 。”” 当 被 试 不 愿 配合 , 或 者 不 适宜 给 被 试 增加 额外 负 
我 报告 法 (Robins et al., 2007)。 自 我 报告 法 能 够 提 担 时 ， 自 我 报告 法 往往 难以 顺利 开展 。 

近年 来 ， 随 着 互联 网 的 普及 ,社交 媒体 逐渐 
成 为 人 们 生活 的 重要 组 成 部 分 。 用 户 的 在 线 行为 
收 稿 日 期 : 2020-01-14 能 够 通过 电子 记录 在 网 络 空间 中 被 实时 保存 下 来 ， 
”国家 社 科 基金 重点 项 目 (17AZD041);， 国家 自然 和 形成 自然 情境 下 丰富 的 用 户 行为 数据 ,为 心理 测 


基金 项 目 (31700984); 中 国 科学 院 青年 创新 促 ; a. nee Soe ees 
区 多 项 目 G1700984; 中 国 各 学 院 青年 创新 促进 会 量 提供 了 新 的 数据 平台 和 研究 途径 。 许 多 研究 结 
苏 悦 和 刘 明 明 对 本 文 的 贡献 相当 ,两 人 为 共同 第 一 作者 。 。 果 证 明 , 用户 在 社交 媒体 上 的 行为 数据 蕴含 了 大 
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心理 健康 等 心理 过 程 的 另 一 扇 窗 。 例 如 ,在 社交 
媒体 上 的 浏览 时 长 与 用 户 的 社交 意愿 正 相 关 ,， 社 
交 网 站 上 的 好 友 数 量 与 用 户 的 害羞 程度 负 相关 
(Orr et al., 2009)。Gosling 等 人 (2011) 认 为 用 户 的 
好 友 数 量 、 发 状态 频率 等 Facebook E KYTAR 
分 别 与 大 五 人 格 的 五 个 维度 存在 显著 相关 ， 这 于 
明 有 可 能 利用 网 络 数据 对 用 户 的 人 格 进行 估计 。 


T mi 


AH 


MyPersonality 上 开展 的 研究 用 户 数量 一 般 在 1000 
名 以 上 ,最 多 可 达 39 万 名 用 户 (He et al., 2014)。 

其 次 , 对 于 社交 媒体 数据 进行 量化 编码 ， 即 
特征 提取 步 又 。 常 用 的 编码 方式 包括 分 类 、 频 数 、 
频率 、 建 立 稀 玻 矩阵 等 。 社 交 媒 体 行为 信息 ， 例 
如 微 博 数量 ， 可 进行 频数 的 统计 和 分 析 (Farnadi 
et al., 2013; Hao et al., 2014); 文本 信息 可 利用 已 


除 行为 特征 外 ,用 户 在 社交 媒体 上 发 布 的 文本 信 
息 (Qiu et al., 2012)、 文 字 表 情 (Park et al., 2015) 等 
均 被 发 现 与 心理 特征 存在 显著 关联 ， 其 效应 量 
中 等 以 上 (Carvalho & Pianowski, 2017)， 这 表明 利 
用 社交 媒体 数据 建立 识别 心理 指标 的 计算 模型 具 
有 可 行 性 。 

基于 以 上 人 研究 结果 , 不 少 学 者 开展 了 借助 社 
交 媒 体 数 据 进行 心理 建 模 的 研究 。 本 文 在 梳理 心 


有 的 词典 进行 词 频 统计 (Eichstaedt et al., 2015; 
Lampos et al., 2014); 社交 信息 可 用 于 建立 反映 用 
户 与 关注 、 点 赞 以 及 转发 用 户 之 间 关 系 的 社交 和 矩 
阵 ， 以 进行 进一步 分 析 (de Choudhury et al., 2014; 
Gittelman et al., 2015). 

再 次 ， 选 用 适当 的 机 器 学 习 方法 将 用 户 的 自 
我 报告 得 分 与 相应 的 社交 媒体 语言 行为 特征 建立 
上 映射 关系 ,并 且 采 用 交叉 检验 ， 验 证 模型 的 计算 


理 建 模 方法 的 基础 上 ， 对 心理 建 模 作为 心理 测量 
方式 的 可 行 性 及 有 效 性 进行 讨论 分 析 ， 并 对 其 未 
来 应 用 领域 和 发 展 趋势 进行 展望 。 


1 心理 建 模 的 一 般 过 程 


心理 建 模 的 一 般 过 程 包括 社交 媒体 数据 准备 
(Data Collection), 特征 提取 (Feature Extraction), 
寺 征 选择 (Feature Selection) 、 数 据 建 模 (Modeling)、 
交叉 验证 (Cross-Validation) 以 及 结果 输出 (Output) 
几 个 主要 部 分 。 一 般 建 模 过 程 如 图 1 所 示 。 
在 心理 建 模 时 ， 首 先 需要 获得 用 户 的 社交 媒 
体 数 据 以 及 对 应 的 心理 特征 自我 报告 评分 作为 心 
理 模型 的 效 标 。 目 前 研究 中 用 到 的 自我 报告 评分 
多 为 自 评 量 表 分 数 ， 另 有 些 心理 模型 的 效 标 采用 
客观 指标 例如 职业 阶级 (Preotiuc-Pietro，Lampos， 
& Aletras, 2015)、 收 入 水 平 (Preotiuc-Pietro, Volkeva, 
et al., 2015) 等 。 利 用 社交 媒体 数据 进行 心理 建 模 
的 用 户 数量 一 般 较 大 ， 例 如 在 Facebook 应 用 


效果 。 交 又 检验 是 机 带 学 习 建 模 过 程 中 最 为 常用 
的 模型 性 能 评估 方法 ， 具 体操 作 是 将 数据 集 分 为 
训练 集 和 测试 集 ， 并 用 训练 集 建 模 、 用 测试 集 评 
估 模 型 性 能 ， 数 据 集 将 划分 多 次 直至 每 个 数据 都 
做 过 训练 集 也 做 过 测试 集 。 交 叉 验 证 能 够 充分 利 
用 原始 数据 并 避免 了 随机 划分 不 均衡 对 模型 性 能 
的 影响 ,同时 也 可 以 尽量 避免 模型 的 过 拟 合 。 
最 后 ,得 到 基于 社交 媒体 数据 的 心理 特征 识 
别 模型 。 当 输入 同 质 用 户 的 社交 媒体 数据 时 ， 心 
理 模 型 可 根据 模型 特点 自动 进行 特征 提取 、 模 型 
计算 并 输出 用 户 的 心理 特征 值 。 


2 社交 媒体 数据 类 型 


由 于 社交 媒体 平台 本 身 所 包含 的 多 样 性 信息 
和 丰富 的 功能 ， 其 也 给 研究 人 员 提 供 了 多 种 类 型 
的 数据 。 在 研究 中 ， 人 们 往往 仅 选 取 一 种 或 者 几 
种 数据 类 型 进行 深入 分 析 和 应 用 。 社 交 媒 体 数 据 
根据 记录 形式 的 不 同 主要 可 以 分 为 个 人 账户 信息 


机 器 学 习 过 程 
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图 1 心理 建 模 的 一 般 过 程 示意 图 
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息 以 及 其 他 线索 。 在 心理 建 模 的 过 程 中 ,不 同类 
别 的 社交 媒体 数据 可 以 通过 不 同 的 量化 编码 方式 ， 
从 丰富 的 电子 记录 中 提取 出 若干 的 数据 特征 。 
2.1 个 人 账户 信息 和 使 用 信息 

个 人 账户 信息 包括 用 户 有 昵称、 性别、 生日 、 
居住 地 、 自 我 简介 、 隐 私 设置 、 头 像 信 息 、 个 性 化 
设置 ( 郑 敬 华 等 , 2018; Bai et al., 2014; Gao et al., 
2013) 等 与 该 社交 媒体 账户 有 关 的 基础 信息 。 区别 
于 自我 报告 法 获得 的 人 口 统计 学 信息 ,社交 媒体 
上 的 个 人 账户 信息 往往 选择 性 填写 ,造成 缺失 数 
据 较 多 且 与 真实 情况 有 所 出 入 。 因 此 ,在 利用 个 
人 账户 信息 进行 建 模 时 需要 注意 个 人 账户 信息 与 
人 口 学 统计 信息 的 区 分 (Markovikj et al., 2013)。 
社交 媒体 的 使 用 信息 指 的 是 用 户 在 使 用 社交 
媒体 时 留 有 的 大 量 电 子 浏览 记录 , 许多 研究 使 用 
这 些 “ 电 子 足 迹 ” 对 个 体 进行 心理 建 模 ,它们 包括 
发 贴 的 时 间 (de Choudhury et al., 2013)、 首 次 登录 
的 时 间 (Nie et al.，2014)、 在 线 时 长 (Bai et al., 
2012)、 帖 子 总 数 (Celli et al., 2013)、 帖 子 包含 URL 
数量 (Adall & Golbeck, 2014) 等 。 
22 ”文本 信息 

文本 作为 社交 媒体 的 主要 呈现 内 容 之 一 ,也 
成 为 了 目前 研究 人 员 进 行 心理 建 模 研究 使 用 最 为 
广泛 的 数据 类 型 ， 目 前 已 发 展 出 了 许多 成 熟 的 文 
本 处 理 技术 , 包括 词 频 统计 、 词 向 量 构 造 、 主 题 
模型 、 自 建 词 典 等 。 

在 进行 词 频 统计 时 , tf-idf 算法 可 以 过 滤 掉 常 
见 的 词语 , 保留 重要 的 词语 (Salton & Buckley, 
1988), 目前 广泛 地 应 用 于 心理 建 模 的 相关 研究 中 
(Peng et al., 2015; Seneviratne et al., 2015). 在 构造 
词 向 量 过 程 中 ,将 具体 的 词 信息 转换 为 词 向 量 的 
常用 转换 算法 包括 n-gram ( 王 唱 晶 等 ，2014; 
Brown et al., 1992; Kern et al., 2014; Mohammad & 
Kiritchenko, 2015), Word2Vec (SKEE 等 , 2019; Rong, 
2014; Garten et al., 2016) 和 GloVe (Pennington et al., 
2014; Arnoux et al., 2017). 对 于 主题 模型 ， 曹 奔 等 
人 (2018) 针 对 其 在 心理 学 文本 分 析 领 域 的 应 用 进 
行 了 细致 的 阐述 。 主 题 模型 也 广泛 地 应 用 于 人 格 
预测 (Hu et al., 2017; Liu, Wang, & Jiang, 2016) 与 
心理 健康 分 析 (Smith et al., 2018; Zhang et al., 


2014) 的 模型 中 。 在 自 建 词 典 方 面 ， 研 究 者 们 编制 
了 许多 以 情绪 、 认 知 、 社 会 关系 等 为 主题 的 词典 ， 


理 语义 词典 (Pennebaker et al., 2007), MRC 心理 语言 
数据 库 (Wilson, 1988), NRC 情绪 词典 (Mohammad 
& Turney, 2013), ANEW 情绪 词典 (Nielsen, 2011)、 
PMI (pointwise mutual information) 文 字 表 情 词 典 
(Park et al., 2015), Ekman 情感 词典 (Volkova & 
Bachrach, 2015) .道德 基础 词典 (Moral Foundations 
Dictionary, MFD) (Haidt et al., 2009), NLTK 词典 
(the Natural Language Toolkit; Loper & Bird, 2002), 
Afinn 词典 ( 详 见 : http://www2.imm.dtu.dk/pubdb/ 
views/publication_details.php?id=6010), H4Lvd 词典 
(FEJL: http://www.wjh.harvard.edu/~inquirer/inqdict. 
txb 等 。 许 多 基于 社交 媒体 的 心理 建 模 研 究 利 用 自 
建 词典 取 得 了 良好 的 计算 效果 ( 李 昂 等 , 2015; 娜 
迪 热 ， 胡 俊 , 2018; Golbeck, Robles, Edmondson, & 
Turner, 2011; Mairesse et al., 2007)。 
2.3 ”社交 网 络 信息 

社交 网 络 信 息 指 在 社交 媒体 上 用 户 与 其 他 用 
户 互动 的 信息 。 目 前 的 心理 建 模 研究 常用 的 社交 
网 络 特征 包括 关注 、 点 赞 、 转 发 、 提 及 、 评 论 等 。 
其 中 ,点 赞 数据 在 心理 建 模 中 使 用 得 最 为 广泛 。 
通过 提取 用 户 的 点 赞 列表 , 可 以 构建 用 户 - 主 题 
稀 艳 和 矩阵， 将 每 个 点 上 赞 主题 作为 一 个 用 户 特 征 列 ， 
以 此 特征 列 作 为 自 变 量 进行 计算 分 析 (Youyou 
et al., 2015; Praet et al., 2018)。 个 体 的 关注 、 点 先 、 
转发 、 提 及 、 评 论 等 社交 行为 可 以 构成 自我 中 心 
的 社交 网 络 (ego network)， 从 而 可 以 计算 各 个 网 
络 的 社交 网 络 指标 , 包括 网 络 大 小 ( 白 朔 天 等 ， 
2014; Bachrach et al., 2012)、 网 络 密度 (Celli et al., 
2013; Kosinski et al., 2014)、 Hy BE ALA (Hao et al., 
2014; Li et al., 2014), 、 中 心 度 (centrality) 和 集聚 系 
数 (transitivity) (Golbeck, Robles, & Turner, 2011; 
Markovikj et al.，2013) 等 指标 都 可 以 进行 建 模 计 
算 。 进 一 步 , 可 以 通过 用 户 的 互动 情况 对 其 影响 
力 进行 分 析 。 常 用 的 用 户 影 响 力 指标 包括 “Klout” 
与 “TIME” 两 项 (Sumner et al., 2012; Lima & de 
Castro, 2014)。 
24 其 他 信息 

除 上 述 数 据 类 型 外 , 图片 信 息 也 在 心理 建 模 
分 析 中 被 广泛 使 用 , 包括 根据 图 片 的 色彩 、 图 像 
组 成 内容 特 性 .图 像 的 亮度 等 进行 心理 建 模 (Liu， 
Preotiuc-Pietro et al., 2016; Segalin et al., 2017; 
Skowron et al., 2016; You et al., 2014)。 
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此 外 , 近年 来 有 越 来 越 多 的 社交 媒体 数据 被 
证 明 可 以 用 于 心理 建 模 ， 如 谷歌 应 用 (Google play 
app) (Seneviratne et al., 2014), Facebook 开放 的 多 
个 应 用 程序 接口 (Application Programming Interface, 
API) (Annalyn et al., 2018; Saha et al., 2017) 等 。 

随 着 移动 互联 网 的 普及 ， 越 来 越 多 的 移动 特 
征 可 以 被 提取 与 利用 , 例如 大 众 点 评 中 用 户 点 评 
的 餐厅 地 点 及 消费 类 型 (Zhong et al., 2015). 
Kalimeri 等 人 (2019) 利 用 手机 浏览 网 络 信息 、 手 机 
应 用 信息 与 网 页 浏览 信息 建立 道德 基础 与 人 类 价 
值 计 算 模型 ， 计 算 准 确 率 可 达 0.6~0.7, 利用 手机 
数据 建立 的 模型 相关 与 网 页 数据 效果 相当 。 


3 心理 建 模 的 常用 方法 


目前 ， 利 用 社交 媒体 数据 的 心理 建 模 方法 根 
据 输 出 类 型 主要 分 为 分 类 模型 (Classification 
model) 与 回归 模型 (Regression modeD)。 在 心理 建 
模 时 ,往往 不 会 只 选用 一 个 建 模 方法 , 而 是 尝试 
在 同一 数据 集 上 采用 多 个 方法 进行 训练 ,通过 不 
断 调整 和 比较 ， 最 终 确定 一 个 或 多 个 最 优 模型 。 

分 类 模型 是 指 利 用 社交 媒体 数据 将 用 户 根据 
一 定 方法 分 为 两 类 或 多 类 。 分 类 的 结果 可 以 是 二 
分 变量 ， 例 如 性 别 ; 也 可 以 人 为 将 结果 划分 为 二 
分 变量 ， 例 如 将 大 五 人 格外 向 性 得 分 的 平均 数 作 
为 分 制 点 根据 分 数 高 低 将 人 群 分 为 内 向 和 外 向 两 
类 (Farnadi et al., 2018)。 常见 的 分 类 模型 算法 包括 
逻辑 斯 蒂 回 归 (Logistics Regression, LR), Shit 
法 (k-Nearest Neighbor, KNN), 支持 向 量 机 (Support 
Vector Machines, SVMD) 、 朴 素 贝 叶 斯 (Naive Bayes, 
NB) .决策 树 (Decision Tree, DT) 、 随 机 森林 (Random 
Forest, RF) 等 ( 杨 剑 锋 等 , 2019; Singh et al., 2016). 

不 同 的 分 类 模型 算法 适用 于 不 同 的 社交 媒体 
数据 。 逻 辑 斯 蒂 回 归 的 结果 易于 使 用 与 解释 (Peng 
et al.，2002), 在 心理 建 模 中 的 应 用 十 分 广泛 , 包 
括 政治 倾向 (Praet et al., 2018)、 物质 滥用 (Kosinski 
et al.，2013)、 人 格 (Celli et al.，2013)、 抑 郁 (de 
Choudhury et al., 2014) 、 自 杀 意 念 (de Choudhury 
et al., 2016) 等 心理 特征 的 分 类 。 邻 近 算法 较为 适 
合 高 维 社交 媒体 特征 条 件 下 的 心理 特征 计算 。 此 
外 ,支持 向 量 机 在 分 类 模型 的 心理 建 模 中 也 表现 
良好 ( 刘 宝 上 芹 ， 牛 耘 , 2016; Ernala et al., 2019; Hao 
et al.,，2013)。 朴 素 贝 叶 斯 和 决策 树 在 处 理 文 本 数 
据 和 社交 媒体 使 用 特征 时 均 具 有 良好 的 表现 (Bai 


et al., 2012; Farnadi et al., 2016)。 随 机 森林 对 特征 
共 线 性 不 敏感 ， 结 果 对 缺失 数据 和 偏 态 数据 的 计 
算 较 为 稳健 ， 可 以 应 用 于 特征 量 巨大 的 计算 模型 
+H (Breiman, 2001). 

回归 模型 是 一 种 利用 连续 特征 及 离散 特征 对 
连续 变量 进行 计算 的 模型 。 心 理 建 模 中 常用 的 
归 算 法 包括 线性 回归 (Linear Regression), #2 Fl 
归 (The Least Absolute Shrinkage and Selection 
Operator Regression, LASSO regression), 1 EJH 
(Ridge Regression, RR), fa Hirit t= E] JH (Gaussian 
Process Regression, GPR) 等 。 其中, 线性 回归 在 心 
理 建 模 中 最 为 常用 (Montgomery et al., 2012). 1 E] 
归 常 在 特征 具有 多 重 共 线性 时 使 用 (Hoerl & 
Kennard, 1970), Æ EJA WU Fe FY es Se A 
性 特征 条 件 下 的 线性 回归 (Hans, 2009)。 高 斯 过 程 
回归 可 作为 一 种 通用 的 计算 方法 ,也 在 社交 媒体 
数据 特征 下 取得 了 良好 的 预测 效果 。 


4 ”心理 建 模 的 应 用 场景 


现 已 有 许多 研究 利用 心理 建 模 的 方法 实现 了 
对 多 种 心理 特征 的 识别 ， 研 究 内 容 涵盖 了 诸多 心 
理学 研究 场景 。 
4.1 个 人 信息 预测 

利用 心理 建 模 方法 可 以 对 个 人 信息 进行 预测 ， 
适用 于 完善 网 络 用 户 缺 失 的 个 人 信息 , 或 对 用 户 
进行 分 类 。 目前 , 心理 建 模 可 对 用 户 性 别 (Schwartz 
et al., 2013)、 年 龄 (Zhong et al., 2015)、 是 否 单 身 
(Li et al., 2014)、 职 业 阶 级 (Preotiuc-Pietro, Lampos, 
& Aletras, 2015)、 收入 水 平 (Preotiuc-Pietro, Volkova, 


et al., 2015); 是 否 与 父母 同居 、 物 质 滥用 、 种 族 、 
宗教 、 党 派 、 性 取向 、 母 语 、 国 籍 、 教 育 水 平 、 


子女 性 别 (Kosinski et al., 2013; Li et al., 2014; 
Volkova & Bachrach, 2015); 星座 、 血 型 (Zhong 
et al.，2015) 等 变量 进行 分 类 或 预测 。 目 前 对 个 人 
言 息 预测 的 建 模 研究 已 较为 全 面 ， 在 后 续 研 究 中 
研究 人 员 可 以 将 预测 结果 作为 分 类 依据 进行 对 比 
研究 , 尤其 是 在 某 些 个 人 信息 不 便于 获取 的 场景 
下 较为 适用 。 
4.2 人格 判 断 

研究 人 员 尝 试 了 多 种 类 型 的 特征 对 大 五 人 格 
进行 建 模 计算 , 包括 文本 信息 、 行 为 信息 、 多 特 
征 结合 等 。Park 等 人 (2015) 采 用 海量 Facebook 文 
本 信息 构建 大 五 人 格 计算 模型 ,计算 精度 在 0.34 
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到 0.46 之 间 。 还 有 研究 人 员 利 用 Facebook fi xa 
情况 计算 用 户 的 大 五 人 格 , 计算 精度 最 高 可 达到 
0.47 (Youyou et al., 2015)。Liu 和 Zhu (2016) 采 用 
深度 学 习 综 合 微 博 文本 特征 、 微 博 行为 特征 以 及 
表情 符号 标签 等 多 重 社交 媒体 特征 进行 建 模 计算 
大 五 人 格 , 最 终 精 度 可 达 0.3~0.5。 

利用 心理 模型 对 人 格 进 行 判 断 可 避免 主观 感 
受 或 动机 对 于 测量 准确 性 的 影响 。Kosinski 等 人 
(2016) 认 为 ， 机 器 学 习 计 算 的 人 格 甚至 比 伴侣 或 


大 的 潜力 ， 其 更 广泛 的 应 用 仍 需 针对 更 多 心理 变 
量 的 更 准确 的 识别 模型 的 开发 ， 以 及 在 心理 健康 
干预 领域 不 断 的 人 力 物力 投入 。 

44 政治 倾向 与 慰 情 监测 

随 着 Web 2.0 时 代 的 到 来 ,社交 网 络 已 经 成 
为 当今 舆情 表达 的 主要 场所 和 快速 传达 民意 的 渠 
道 ( 周 阳 , 2018)。 利 用 社交 媒体 数据 可 以 实时 了 解 
民众 的 与 论 态度 以 及 政治 倾向 。Praet 等 人 (2018) 
根据 用 户 的 Facebook 点 赞 数据 构建 美国 用 户 的 政 


好 友 的 判断 更 为 准确 。Youyou 等 人 (2017) 利 用 心 
理 模 型 进行 人 格 的 聚 类 研究 ， 认 为 使 用 心理 模型 
进行 人 格 测量 可 以 统一 评价 标准 ， 克 服用 户 自 评 
时 参考 群体 的 影响 以 及 动机 的 影响 。 目 前 对 人 格 
建 模 的 研究 已 经 颇 为 全 面 ,也 涉及 到 了 很 多 社交 
媒体 特征 ， 于 建 伟 (2018) 以 及 张 舌 等 人 (2014) 均 
对 近年 来 基于 社交 网 络 的 人 格 分 析 和 人 格 建 模 研 
究 做 出 了 详细 的 综述 。 但 是 模型 的 计算 精度 还 有 
进一步 提升 的 空间 ,也 需要 研究 人 员 进 行 更 多 的 
尝试 。 
4.3 ”心理 健康 状态 识别 

心理 建 模 可 以 分 析 用 户 在 社交 媒体 上 发 布 的 
感受 与 想法 ,为 心理 健康 状态 筛 查 提供 了 新 途 
径 。 许 多 人 研究 证 明 , 可 以 利用 社交 媒体 数据 识别 
抑郁 (Resnik et al., 2013)、 自 杀 倾 向 (de Choudhury 
et al., 2016) 、 精 神 分 裂 (Saha et al., 2017)、 人 格 障 
碍 (Carvalho & Pianowski, 2017), 焦虑 水 平 (Settanni 
& Marengo, 2015), 其 至 身体 疾病 如 心脏 病 (Mathan 
et al，2018) 、 糖 尿 病 、 肥 胖 (Araujo et al., 2017; 
Mejova et al., 2018) 等 身心 健康 问题 。Tsugawa 等 
人 (2015) 与 Aldarwish 和 Ahmad (2017) 两 组 研究 人 
员 分 别 基 于 推 特 与 Facebook 的 文本 信息 建立 抑郁 
识别 模型 ， 分 类 准确 率 达到 61% 和 63%. Nguyen 
等 人 (2017) 利 用 网 络 文本 信息 对 抑郁 、 双 相 情 感 障 
得 、 自 我 伤害 、 悲 伤 和 自杀 群体 进行 区 分 ， 分 类 
准确 率 最 高 达 88%. 

在 利用 心理 建 模 对 用 户 进 行 心 理 健康 盘查 后 ， 
对 于 存在 心理 问题 的 用 户 可 实现 主动 推送 相关 资 
源 等 干预 措施 。Liu 等 人 (2019) 提 出 线 上 主动 自杀 
预防 (Proactive Suicide Prevention Online, PSPO) 
的 方法 ,主动 识 别 自杀 者 并 为 他 们 提供 有 效 的 心 
理 危 机 干预 资源 ,提高 存在 自杀 意念 的 用 户 的 求 
治 行为 以 及 公众 的 健康 意识 。 目 前 ， 这 类 方法 在 
临床 中 的 应 用 不 断 增 加 ,在 辅助 诊断 中 也 存在 巨 


治 倾向 与 党 派 偏好 的 识别 模型 ， 计 算 效 果 可 达到 
良好 水 平 。Zhou 等 人 (2017) 通 过 分 析 社 交 媒 体 数 
据 可 实现 对 实时 社会 态度 以 及 政治 议题 的 僵 情 趋 
势 监测 。 

此 外 ， 对 于 关键 心理 变量 如 性 别 、 受 教育 程 
度 等 的 识别 可 进一步 实现 用 户 政 治 倾向 与 与 论 的 
预 舍 。 在 美国 政治 倾向 的 调查 中 发 现 ， 民主党 与 
共和 党 选民 相 比 ， 人 格 方面 外 向 性 与 尽责 性 得 分 
更 高 ; 价值 导向 更 倾向 于 传统 ,整合 性 与 安全 性 ， 
同时 支持 普遍 主义 价值 观 (Dirilen-Giimiis et al., 
2012); 对 于 自由 主义 的 态度 是 区 分 民主 党 与 共和 
党 选民 的 重要 心理 指标 , 对 自由 主义 态度 越 积 极 ， 
越 有 可 能 倾向 于 民主 党派 (Zschirnt, 2011)。 用 户 的 
社会 态度 、 人 格 以 及 情绪 状态 都 会 影响 政治 事件 
的 与 论 走向 ( 周 阳 , 2018)。 社 交 媒 体 数据 为 政治 倾 
向 及 舆论 状态 的 实时 监控 提供 了 可 能 ， 可 作为 网 
络 僵 情 分 析 的 重要 辅助 工具 ， 可 为 维护 社会 稳 
定 、 促 进 民 主 开放 提供 保障 。 

45 基于 社交 媒体 的 品牌 营销 

随 着 社交 媒体 的 用 户 数量 爆发 式 增长 ， 越 来 
越 多 的 消费 品牌 开始 关注 在 社交 媒体 上 的 营销 途 
径 (Social Media Marketing)。 品牌 的 社交 网 络 账 号 
的 粉丝 数 以 及 评论 直接 反应 了 客户 的 喜爱 程度 及 
品牌 流行 度 (de Vries et al., 2012)。 社 交 媒 体 上 的 
海量 数据 可 以 帮助 品牌 搜集 用 户 需 求 (Zhu & 
Chen，2015)， 定 位 消费 群体 (Bolotaeva & Cata, 
2010)， 确 立 品 牌 形 象 (Walsh et al., 2013)， 实 现 个 
性 化 营销 (Tucker, 2014)。 目 前 , Facebook 的 市 场 应 
用 已 经 开放 相关 API 接口 , 研究 者 可 以 根据 关键 
词 或 条 件 选 项 轻而易举 地 定位 可 能 感 兴趣 的 用 户 
(Saha et al., 2017)。Matz 等 人 (2017) 尝 试 针对 不 同 
的 人 格 , 给 同一 个 网 络 广告 定制 了 不 同 风格 的 首 
页 图 ,并 根据 用 户 的 人 格 特点 进行 推送 ,将 广告 
点 击 率 提升 了 约 40%。 未 来 的 研究 中 可 以 进一步 
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通过 心理 建 模 的 方法 利用 社交 媒体 数据 预测 用 户 
感 兴 趣 的 品牌 ， 通 过 品牌 账号 的 文本 信息 及 评论 
等 信息 利用 主题 模型 提取 品牌 形象 关键 词 ， 联 合 
真实 购买 数据 与 社交 媒体 行为 识别 用 户 的 消费 心 
理 关 键 变量 ， 从 而 制定 有 针对 性 的 营销 策略 ， 将 
营销 效果 最 大 化 。 
46 其 他 

此 外 ,最 新 研究 不 断 利用 社交 媒体 数据 实现 


心理 建 模 适 用 于 对 大 规模 人 群 施 测 ， 并 且 被 
试 覆 盖 范 围 可 以 更 广 。 自 我 报告 法 往往 选取 代表 
样本 进行 分 析 。 基 于 社交 媒体 的 心理 建 模 依靠 社 
交 媒 体 规模 巨大 的 用 户 群体 可 以 将 被 试 范围 尽 可 
能 地 扩大 ( 朱 廷 大 等 ,2015), 覆盖 不 同 的 地 区 、 职 
业 、 性 别 、 年 龄 。 特 别 是 当 研 究 本 身 针对 的 对 象 
为 社交 媒体 使 用 者 时 ， 基 于 社交 媒体 数据 进行 心 
理 建 模 的 方法 几乎 可 以 覆盖 研究 对 象 总 体 ， 使 结 


更 多 样 的 心理 变量 识别 。He 等 人 (2014) 利 用 
Facebook 上 的 帖子 内 容 ， 建 模 计 算 用 户 的 自我 控 
制 能 力 。Lewenberg 等 人 (2015) 构 建 的 识别 模型 则 
可 利用 推 特 数据 聚 类 计算 用 户 的 个 人 兴趣 。 
Kalimeri 等 人 (2019) 可 根据 手机 或 网 页 浏览 信息 
与 时 长 计算 道德 基础 与 人 类 价值 。Dufner 等 人 
(2018) 构 建 社交 媒体 数据 与 内 隐 动 机 倾向 的 识别 
模型 。 利 用 心理 模型 对 心理 变量 进行 识别 可 充分 
利用 社交 媒体 大 数据 ， 探 究 数据 中 隐 含 的 更 多 心 
理 信息 ,实现 更 加 灵活 的 实验 设计 。 


5 心理 建 模 为 心理 测量 提供 新 途径 


51 心理 建 模 作为 新 途径 的 优势 

相 比 于 纸 笔 测 量 方式 ， 基 于 社交 媒体 的 心理 
建 模 有 其 独特 的 应 用 场景 和 适用 范围 ， 可 成 为 
现 有 测量 方式 的 有 益 补 充 ， 为 心理 测量 提供 了 新 
途 


途径 


社交 媒体 上 存在 大 量具 有 了 时间 标记 的 数据 ， 
为 后 续 更 具 生 态 性 的 心理 变量 分 析 提 供 了 数据 基 
础 。 自 我 报告 的 回答 可 能 存在 社会 赞许 效应 ,被 
试 受 社会 期 望 的 影响 可 能 会 给 出 误导 性 的 回答 
(Gerrig et al., 2012)， 对 结果 的 准确 性 存在 一 定 影 
响 。 相 比 而 言 ， 基 于 社交 媒体 的 心理 建 模 通过 分 
析 用 户 的 社交 媒体 数据 可 实现 对 被 试 的 无 侵扰 式 
测量 , 无 侵扰 式 的 情境 下 数据 均 出 自用 户 的 自发 
行为 ,代表 了 用 户 的 真实 意愿 ， 因 而 更 具 生 态 效 
度 ( 朱 廷 动 等 ,2015)。 此 外 ， 由 于 个 体 在 使 用 网 络 
时 处 于 未 受 测量 的 自然 状态 下 ,也 更 有 利于 对 配 
合 性 低 、 社 会 防御 强 的 人 物 进行 准确 的 心理 刻画 
(Liu, Xue, et al., 2018)。 

心理 建 模 能 够 提供 更 为 统一 的 行为 测量 标 
准 。 相 比 于 被 试 各 自 进行 的 主观 报告 ,心理 建 模 
测量 的 是 特定 平台 上 的 行为 ,并 经 由 计算 机 进行 
统一 的 特征 提取 和 计算 , 计算 过 程 一 致 性 高 ， 结 
果 更 为 客观 。 


ones 


果 更 为 全 面 和 客观 ,也 避免 了 统计 误差 对 结果 的 
影响 。 

心理 建 模 可 追溯 的 时 间 跨 度 大 ,可 在 有 记录 
的 任 一 时 间 点 开展 心理 学 研究 。 自 我 报告 一 般 专 
注 于 临近 时 间 段 进行 问卷 收集 ， 而 社交 媒体 数据 
具有 时 间 标 记 ， 可 以 不 受 限 制 地 对 用 户 各 个 时 间 
点 的 心理 状态 进行 回 湖 ,， 由 此 可 开展 横断 研究 或 
追踪 研究 (Kosinski et al.，2013)。 在 追踪 研究 中 ， 
可 以 跟踪 被 试 特定 时 间 段 内 的 社交 媒体 活动 从 而 
对 某 项 心理 特征 进行 多 次 计算 。 这 一 方法 可 以 实 
现 快捷 的 数据 收集 ， 避 免 多 次 填写 问卷 的 练习 效 
应 ， 尽 可 能 减少 在 多 次 实验 中 被 试 流失 的 问题 ， 
降低 实验 误差 。 

基于 社交 媒体 的 心理 建 模 可 以 有 效 汇总 特定 
条 件 的 研究 对 象 。 我 们 可 以 根据 话题 标签 、 关 键 
词 、 共 同 关 注 等 内 容 对 如 兴趣 爱好 、 事 件 经 历 、 
话题 讨论 等 条 件 下 的 群体 进行 汇总 ， 利 用 社交 媒 
体 数 据 进 行 心理 特征 的 分 析 。 由 于 有 些 研究 本 身 
的 特殊 性 ， 相 关 被 试 不 易 招 募 。 利 用 心理 模型 进 
行 心理 特征 的 识别 可 以 提供 了 解 该 群体 的 窗口 
(Liu, Wu, et al., 2018)。 此 外 ,研究 对 于 某 话 题 主 
动 关 注 的 人 与 令 被 斌 被 动 回答 对 某 话题 的 关注 程 
度 ， 其 思路 也 是 截然 不 同 的 。 

随 着 互联 网 社交 媒体 的 普及 ,社交 媒体 数据 
已 经 成 为 记录 和 洞察 人 的 心理 特征 与 行为 规律 的 
重要 依据 。 基 于 社交 媒体 数据 进行 心理 特征 的 分 
析 识 别 已 经 具备 了 可 行 性 且 可 操作 。 为 了 方便 对 
分 析 过 程 中 的 数据 与 算法 进行 比较 和 选择 , 表 1 
汇总 了 心理 建 模 中 常见 的 数据 特征 、 机 器 学 习 方 
法 及 要 识别 的 心理 变量 的 组 合 ， 以 便 研 究 者 在 建 
立 心 理 模型 时 进行 参考 。 

如 表 1 Bras, 在 分 类 模型 中 ， 使 用 频率 最 高 
的 算法 为 支持 向 量 机 (SVM) 和 逮 辑 回归 (LR) 等 ; 
回归 模型 中 ,使 用 频率 最 高 的 算法 为 线性 回归 和 
高 斯 过 程 回 归 (GPR)。 这 些 算法 在 诸多 社交 媒体 特 
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表 1 心理 建 模 常用 特征 -场景 -算法 组 合 汇总 


数据 应 用 场景 
类 型 个 人 信息 人 格 心理 健康 其 他 
个 人 账户 分 类 : SVM、GP、 回归 : M5, GPR, RR, 线性 回归 、 回归 : LASSO, SVR, 
信息 LR PACE stepwise 
分 类 : SVM, NB, DT 
文本 信息 回归 : RR 回归 : GPR, 线性 回归 、RR 、M5 、 回归 : 线性 回归 、LASSO、 回归 : RR, GPR [用 户 影响 
分 类 : SVM, GP, RFR SVR, stepwise, PACE 力 ] 
LR, NB 728: NB, SVM, ZeroR, RF, 分类: SVM, LR, NN, RF 分 类 : SVM [情感 类 别 ] 
DT, ZeroR, J48, KNN., LR [道德 判断 、 自 我 
ene 监控 行为 ] 
社交 网 络 回归 : 线性 回 可 归 : LASSO, GPR, 线性 回归 、 回归 : 线性 回归 、LASSO、 回归 : RR .GPR [用 户 影响 力 ] 
信息 归 、RR RFR, M5, PACE, RR SVR, stepwise, PACE ”分 类 : LR [政治 倾向 ] 
分 类 : LR, SVM, 分 类 : SVM, NB, ZeroR, J48, ”分 类 : SVM, NN 
GP RF, KNN, LR, NB, DT 
社交 媒体 回归 : REH, PACE, GPR 可 归 : 线性 回归 、PACE、 回归: RR GPR [用 户 影 响 力 ] 
使 用 信息 分 类 : SVM. NB. DT. J48. RF, LASSO, SVR, stepwise 
ZeroR 分 类 : SVM, NN 
图 片 信息 分 类 : LR、NN 可 归 : 线性 回归 RFR 
其 他 信息 回归 : PR EE ”回归 : GPR、 线 性 回归 、RFR、 可 归 : 线性 回归 分 类 : RE [人 类 价值 ] 
归 LASSO 
分 类 : SVM, LR, 分 类 : NB, SVM, KNN, DT, 
GP. NB, NN ZeroR 


注 : (1) 表 中 统计 的 文献 为 来 源 于 谷歌 学 术 搜 索 关 键 词组 “social mediatpredict”, “social media+model”, “social media+machine 
learning” F 2010 年 至 2019 年 所 有 的 心理 建 模 原创 文章 (不 包括 综述 和 元 分 析 ) 共 69 篇 。 

DRP GP 指 高 斯 过 程 分 类 , RFR 指 随机 森林 回归 , NN 指 神经 网 络 ; 表格 中 加 粗 字 体 为 以 往 文献 中 使 用 2 次 的 算法 ,加 
粗 加 下 划 线 字体 为 以 往 研究 中 使 用 3 次 以 上 的 算法 。 

(3) 应 用 场景 中 其 他 类 别 的 [] 标 明 心 理 模型 预测 的 心理 变量 。 


> 


征 的 建 模 中 均 有 使 用 。 研 究 人 员 在 对 于 新 的 心理 测 值 与 真实 值 的 相关 系数 (7) .平均 绝对 误差 (Mean 
量 进行 建 模 时 ,可 根据 具体 应 用 场景 和 数据 类 Absolute Error，MAE)、 均 方 根 误差 (Root Mean 
型 ,借鉴 以 上 列 出 的 常用 建 模 方法 , 优先 考虑 该 Square Error, RMSE)、 决 定 系数 (R”) 等 。 现 已 有 相 
场景 下 的 常用 算法 。 当 多 的 分 类 模型 的 分 类 准确 率 可 达 80% 以 上 

值得 注意 的 是 , 任何 一 种 建 模 算法 都 有 其 适 (Celli et al., 2013; Iacobelli et al., 2011; Seneviratne 
用 范围 , 研究 人 员 在 选择 算法 时 需要 特别 关注 算 et al., 2014), 相当 于 心理 测量 的 效 标 效 度 计算 中 
法 的 前 置 假设 。 一 味 追 求 暂时 的 模型 效果 而 忽视 总 命中 率 达 到 了 80% 以 上 ; 在 回归 模型 中 , 模型 
算法 本 身 的 限制 条 件 反而 会 阻碍 模型 的 适用 范围 ， 计算 结果 同 真 实 值 之 间 的 相关 系数 也 可 以 达到 
需要 严格 检验 数据 并 对 建立 的 模型 不 断 优化 。 0.3~0.5 之 间 ， 相 当 于 通过 回归 分 析 对 效 标 效 度 进 

为 了 对 心理 建 模 的 性 能 进行 评估 ,依据 目标 行 计 算 并 达到 了 中 等 相关 的 水 平 。 综 上 , 不 论 是 
心理 特征 的 属性 不 同 ， 目 前 评价 标准 可 划分 为 两 哪 类 心理 特征 ， 心 理 指标 识别 模型 均 具 有 良好 的 
大 类 。 离 散 型 心理 指标 的 主要 评价 标准 有 准确 率 效 标 效 度 。 
(Accuracy)、 精 确 率 (Precision)、 接 收 者 操作 特征 此 外 也 有 研究 表明 心理 模型 的 计算 结果 具 
曲线 (Receiver Operating Characteristic Curve, 也 较 高 的 稳定 性 和 一 致 性 , 刘 明 明 (2019) 对 其 所 建立 
FK ROC 曲线 )、 曲 线 下 面积 (Area Under the Curve, 的 心理 模型 的 重 测 信和 度 进 行 了 检验 ， 其 中 ,大 五 
AUC) 等 。 连续 型 心理 指标 的 主要 评价 标准 包括 预 人 格 识别 模型 的 测量 间隔 为 6 AH, 抑郁、 自杀 
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可 能 性 、 生 活 满意 度 识别 模型 的 重 测 间隔 为 1 个 
月 , 将 重 测 前 后 心理 特征 进行 分 析 ， 其 中 大 五 人 
格 、 抑 郁 、 自 杀 可 能 性 及 生活 满意 度 模 型 的 重 测 
信 度 均 在 0.75 以 上 ,达到 了 和 较 高 的 可 信和 度 ， 结 
如 表 2 所 示 。 


表 2 心理 模型 识别 信和 度 检验 ( 刘 明 明 , 2019) 


计算 模型 重 测 信 度 

大 五 人 格 0.77~0.79 
抑郁 0.83 

自杀 可 能 性 0.80~0.91 
生活 满意 度 0.84 


综 上 所 述 , 我 们 发 现 虽然 基于 社交 媒体 的 心 
理 建 模 没有 遵循 严格 的 心理 量 表 开 发 过 程 , 但 其 
模型 的 计算 结果 经 过 信 效 度 检验 ， 模 型 对 心理 指 
标的 识别 是 稳定 可 靠 的 。 

5.2 ”心理 建 模 的 不 足 之 处 

尽管 基于 社交 媒体 的 心理 建 模 是 可 行 的 ， 并 
且 其 计算 结果 经 过 一 定 的 信 效 度 检验 , 但 是 作为 
一 种 新 的 方法 ， 它 仍然 存在 不 足 之 处 。 

首先 ， 基于 社交 媒体 的 心理 建 模 这 一 新 方法 
具有 一 定 的 学 习 成 本 。 相 比 于 心理 学 研究 人 员 已 
经 熟练 掌握 的 纸 笔 测量 方式 ,心理 建 模 过 程 中 涉 
及 到 的 大 量 计 算 机 专业 知识 ， 相 对 复杂 的 心理 变 
量 计 算 过 程 ， 都 会 给 心理 学 领域 研究 人 员 对 结果 
的 计算 和 解释 带 来 一 定 的 挑战 。 

此 外 ,这 一 新 方法 还 有 额外 的 设备 成 本 。 社 
交 网 络 中 的 海量 用 户 数据 可 达 TB 级 别 ， 进 行 处 
理 和 分 析 时 ， 计 算 机 的 计算 性 能 和 存储 性 能 均 将 
面临 更 高 的 要 求 。 
其 次 ， 新 方法 的 场景 以 社交 媒体 为 主 也 面 
个 着 被 试 范围 受 限 的 问题 。 虽 然 社 交 媒 体 用 户 的 
组 成 多 样 , 覆盖 人 群 较 广 , 但 仍 无 法 覆盖 真实 世 
界 中 的 全 部 用 户 。 社 交 媒体 用 户 这 一 特定 群体 可 
能 会 对 实验 带 来 群体 偏差 ; 不 同 社交 平台 的 用 户 
也 会 存在 不 同 的 群体 特征 。 这 些 基于 场景 的 群体 
id Ze 对 于 心理 建 模 研 究 的 影响 仍 有 待 进一步 
探讨 。 

再 次 ， 基 于 社交 媒体 的 心理 建 模 目 前 也 存在 
准确 度 受 限 的 问题 。 目 前 ,大 部 分 心理 变量 的 识 
别 模型 以 自 评 量 表 得 分 作为 效 标 进行 建 模 
(Kosinski et al., 2015)。 模 型 本 身 计算 的 准确 程度 


无 法 超越 纸 笔 测 量 ， 且 自 评 阶段 结果 的 准确 性 也 
影响 着 模型 的 好 坏 。 目 前 , 已 经 有 许多 传统 心理 
测量 方法 在 主观 自我 报告 的 基础 之 上 加 入 客观 测 
量 指标 ， 作 为 主观 报告 的 补充 进行 聚合 指标 的 研 
究 。 例 如 ， 睡 眠 质量 可 采用 睡眠 时 间 ， 睡 眠 潜伏 其 
等 客观 指标 进行 表示 (Devnani & Hegde, 2015); 
注意 水 平 可 采取 主观 测量 与 客观 测量 结合 进行 研 
究 ， 如 脑 电 ， 眼 动 水 平等 (Hopstaken et al., 2016)。 
未 来 的 心理 建 模 可 借鉴 客观 测量 指标 ， 逐 步 从 仅 
将 自我 报告 得 分 作为 建 模 效 标的 计算 模式 ， 转 变 
为 以 结合 主观 报告 和 客观 测量 的 综合 指标 作为 建 
模 的 目标 变量 的 方式 ， 进 一 步 提 升 心理 模型 的 内 
部 效 度 。 

最 后 , 目前 心理 模型 的 识别 精度 仍 需 进一步 
提高 。 尽 管 目前 心理 分 类 模型 能 够 达到 0.8~0.9 以 
上 的 准确 率 ; 回归 模型 能 达到 0.3 以 上 的 中 等 相 
K, 但 仍 存 在 以 当前 的 心理 建 模 精度 是 否 能 够 达 
到 心理 学 研究 所 需 良 好 的 信 效 度 等 疑问 。 心 理 建 
模 的 精度 提升 是 基于 计算 机 与 心理 测量 领域 技术 
发 展 的 缓慢 累积 过 程 。 目 前 的 计算 结果 往往 是 根 
据 概 率 分 布 预测 的 样本 分 布 状态 ,因此 在 做 临床 
使 用 或 者 针对 个 体 差 异化 评估 时 需要 谨慎 使 用 
(Liu, Xue, et al., 2018)。 


6 心理 建 模 的 未 来 发 展 趋势 


利用 社交 媒体 数据 进行 建 模 ， 从 而 识别 心理 
特征 是 一 种 新 兴 的 心理 测量 方法 , 在 用 户 个 人 信 
息 预测 、 人 格 判断 、 心 理 健 康 筛 查 、 政 治 倾向 判 
断 以 及 消费 行为 预测 等 方向 上 具有 巨大 的 潜力 。 
在 未 来 的 研究 中 ， 有 如 下 发 展 趋势 值得 关注 : 
6.1 社会 媒体 信息 与 用 户 心 理 变量 间 的 关联 

机 制 

利用 机 器 学 习 算 法 进行 心理 建 模 ， 可 以 通过 
数据 特征 直接 计算 出 相应 的 心理 指标 ， 然 而 数据 
与 心理 变量 间 的 关联 机 制 却 相 对 难以 解释 和 理 
解 。 一 些 复杂 的 机 器 学 习 算法 ， 例 如 神经 网 络 或 
高 斯 过 程 ， 并 不 直接 将 某 一 社交 媒体 特征 与 目标 
心理 变量 进行 关联 ， 而 是 经 过 层 层 变换 最 终 计 算 
出 心理 变量 的 离散 类 别 或 连续 值 (Arnoux et al., 
2017; Wang & Kosinski, 2018)。 另 一 些 建 模 过 程 通 
过 降 维 运算 或 傅 里 叶 变 换 转 换 数 据 坐标 系 ， 从 而 
使 得 数据 特征 丧失 原 有 的 心理 学 含义 (Praet et al. 
2018). 
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可 解释 性 强 的 心理 建 模 方式 在 心理 学 研究 中 
往往 能 提供 更 多 的 过 程 信息 ， 同 时 也 能 倒 推出 更 
好 的 心理 干预 方式 。 如 何 将 行为 数据 的 处 理 赋予 
心理 学 含义 是 一 项 值得 关注 的 话题 。 一 方面 研究 
人 员 开 始 尝试 解释 性 强 的 算法 进行 建 模 ， 如 进化 
模糊 系统 (Evolutionary Fuzzy Systems) (Fernandez 
et al., 2019)， 新 闻 处 理 领 域 的 LTO 算 法 透明 度 模 
型 ( 仙 移 苦 ， 陈 昌 凤 ，2018) 等 。 另 一 方面 ， 越 来 越 
丰富 的 社交 媒体 数据 可 以 使 得 应 用 简便 易 懂 的 方 
式 建 模 便 能 够 取得 良好 的 模型 效果 (Nave et al., 
2018; Kalimeri et al., 2019)。 此 外 ,也 可 以 尝试 结 
合 心理 学 理论 ， 如 通过 心理 学 现 有 研究 中 某 些 行 
为 特点 和 心理 特质 之 间 的 关系 对 特征 进行 筛选 ， 
从 而 保证 所 确定 的 建 模特 征 在 心理 学 层面 的 可 解 
释 性 。 
6.2 ”多 数据 源 特征 与 多 识别 模型 融合 优化 模型 

精度 

随 着 互联 网 技术 与 通讯 技术 的 不 断 发 展 ， 越 
来 越 多 的 信息 以 更 加 密集 的 形式 呈现 在 社交 媒体 
E, 小 视频 、3D/4D 影像 、 虚 拟 现实 等 包含 大 量 
信息 的 数据 形式 高 速 发 展 (Roberts & Foehr, 
2008)。 心 理 建 模 所 采用 的 数据 特征 从 最 初 单一 的 
文本 特征 逐渐 过 渡 到 图 片 、 手 机 定位 等 多 元 化 的 
综合 特征 。Azucar 等 人 (2018) 通 过 元 分 析 证 明 在 
进行 心理 建 模 时 多 种 特征 结合 使 用 的 建 模 效 果 优 
于 单 种 特征 ,多样 化 特征 种 类 可 以 更 加 全 面 地 识 
别 个 体 心理 特征 。 

新 出 现 的 社交 媒体 数据 是 否 与 心理 特征 存在 
关联 ， 怎 样 整合 不 同类 型 的 特征 以 取得 更 优 的 识 
别 效果 , ARE AR ROTI AY Blade, Wb, 研究 表明 ， 
融合 (fusion) 多 个 机 器 学 习 模 型 往往 可 以 提高 整 
体 的 识别 能 力 (Yu et al., 2011)。 因 此 ,在 未 来 的 研 
究 中 研究 者 们 可 以 将 这 一 思路 运用 到 心理 特征 识 
别 的 建 模 实践 中 , 深入 挖掘 使 用 多 数据 源 特征 与 
多 识别 模型 集成 的 方法 ,进一步 提高 模型 精度 。 
6.3 ”心理 模型 与 传统 心理 学 研究 方法 的 有 效 

结合 

基于 社交 媒体 的 心理 建 模 方 法 作为 一 种 补充 
的 测量 方式 ,在 自我 报告 法 难以 实现 的 场景 下 具 
有 一 定 的 优势 ， 因此, 将 其 与 传统 心理 学 研究 方 
法 结合 能 够 进一步 拓展 研究 范畴 。 研 究 人 员 可 以 
背 助 这 一 新 方法 进行 更 多 的 对 比 实验 ,如 国籍 、 
文化 、 地 域 等 方面 的 差异 研究 。 另 外 ,利用 心理 


模型 进行 测量 配合 灵活 的 实验 设计 可 以 获取 以 往 
传统 方式 难以 获取 的 样本 量 和 特殊 样本 群体 ， 更 
可 以 突破 时 间 上 和 被 试 招募 上 的 限制 从 而 将 某 些 
相关 性 问题 推进 到 因果 性 角度 的 探究 。 

现 已 有 学 者 利用 基于 社交 媒体 的 心理 建 模 方 
法 进行 实验 设计 并 开展 研究 。Matz 等 人 (2017) 基 
于 Facebook 点 赞 行为 对 用 户 的 大 五 人 格 特点 进行 
识别 ,并 在 此 基础 上 进行 了 定向 广告 投放 ,， 结 
表明 当 广 告 内 容 同 受众 性 格 相 匹配 时 更 易 影 响 他 
们 的 行为 。 该 研究 涉及 了 Facebook 平台 上 的 数 百 
万 名 用 户 , 传统 测量 方式 无 法 实现 , 而 基于 社交 
媒体 的 心理 建 模 这 一 新 方法 提供 的 用 户 人 格 特征 
为 后 续 研 究竟 定 了 基础 。 有 些 研究 针对 某 些 重大 
生活 事件 ， 而 这 类 事件 发 生 后 短期 内 往往 难以 获 
得 足够 的 样本 进行 心理 特征 的 测量 ， 且 由 于 该 类 
和 件 无 法 预知 从 而 无 法 获得 前 后 测 的 对 照 。Liu， 
Xue 等 人 (2018) 基 于 新 浪 微 博 的 用 户 活动 利用 心 
理 健康 模型 对 于 家 庭 暴 力 受害 者 短期 内 受到 的 影 
响 进 行 分 析 ， 克服 了 传统 方法 无 法 即时 测量 的 缺 
陷 ， 研 究 了 受害 者 在 家 暴 前 后 短期 时 间 内 抑郁 、 
生活 满意 度 等 的 变化 。 
64 心理 建 模 和 脑 科 学 领域 的 深度 融合 

心理 建 模 的 研究 和 脑 科 学 的 发 展 相互 结合 相 
互 促进 。 一 方面 目前 的 心理 建 模 研究 主要 集中 
于 对 社交 媒体 用 户 的 网 络 行为 进行 分 析 , 通过 提 
取 用 户 的 社交 媒体 行为 特征 建立 心理 特征 的 预测 
模型 。 然 而 在 社交 媒体 行为 预测 心理 特征 这 一 过 
程 中 用 户 行为 的 心理 学 机 制 尤其 是 脑 科 学 机 制 沿 
不 明确 。 从 脑 科 学 角度 深入 挖掘 用 户 的 社交 媒体 
行为 有 助 于 进一步 揭示 用 户 行为 背后 的 神经 科学 
机 制 ， 从 而 增强 依据 行为 特征 所 建立 的 心理 模型 
的 可 解释 性 。 同 时 在 心理 建 模 过 程 中 依据 神经 科 
学 基础 进行 特征 筛选 和 提取 也 有 望 进 一 步 提 高 模 
型 的 计算 性 能 。 另 一 方面 ， 基 于 社交 媒体 的 心理 
建 模 作为 一 种 交叉 领域 的 方法 ， 可 以 应 用 于 与 认 
知 相关 的 心理 特征 的 分 析 研 究 中 。 通 过 这 样 的 方 
式 , 我 们 可 以 把 用 户 认 知 相关 心理 特征 、 社 交 媒 
体 互动 环境 以 及 大 脑 的 认 知 活动 有 效 结合 在 一 起 ， 
为 深入 研究 个 体 与 个 体 自然 状态 下 社交 活动 的 心 
理 机 制 提供 可 能 。 社 交 媒 体 平台 为 脑 科 学 的 研究 
提供 了 用 户 在 线 进 行 社交 互动 的 生态 环境 ， 而 基 
于 社交 媒体 的 心理 建 模 则 能 够 对 用 户 相 应 的 心理 
特征 进行 计算 和 分 析 ， 在 此 基础 上 , 研究 人 员 可 
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以 对 人 类 在 网 络 互 动 环境 下 的 认 知 活动 等 心理 过 
程 进行 进一步 探究 。 
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Identifying psychological indexes based on social media data: 
A machine learning method 
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Abstract: Modeling psychological indexes (i.e., psych-modeling) is an emerging method that uses machine 
learning algorithms to identify psychological indexes based on big data. This paper reviews the feasibility of 
psych-modeling methods based on social media data in the field of psychometrics. Frequently used data 
types and machine learning algorithms are introduced. Then, we summarize psych-modeling’s application to 
various scenarios together with its strengths and weaknesses. Compared with traditional self-reporting 
methods, psych-modeling has some advantages, including better performance in retrospective studies, 
greater ecological validity, and greater time-efficiency. However, psych-modeling has several limitations. 
For example, researchers need to spend extra time and effort to learn this new method and bear the inevitable 
cost of hardware. In future studies, researchers could investigate further how user’s behavior on social 
media relates to psychological indexes. We also expect psych-modeling will be used in future psychological 
studies. By combining psychometrics and machine learning, we believe psych-modeling could make great 
contributions to psychology research and practice in the future. 
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